wrapper machine-learning reinforcement-learning ai deep-learning neural-network artificial-intelligence openai dqn gym unreal-engine ue4 learning-agent UnrealEngineC

【强化学习】Q-Learning算法详解

1 Q-Learning算法简介 1.1 行为准则我们做很多事情都有自己的行为准则，比如小时候爸妈常说：不写完作业就不准看电视。所以我们在写作业这种状态下，写的好的行为就是继续写作业，知道写完他，我们还可以得到奖励。...

[Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发（K-Means、BIRCH、树状聚类、MeanShift）

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给...

Hands-On Machine Learning with Scikit-Learn 3rd edition

标签： tensorflow tensorflow scikit-learn Machinelearning 3rdedition

Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems 3rd Edition Aurélien Géron (Author)

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-3与Few-shot Learning

标签：人工智能深度学习自然语言处理

GPT-3曾经是最大、最让人惊艳也是最具争议的预训练语言模型。介绍GPT-3的论文长达72页，...与文章《》中介绍的GPT-2在Zero-shot Learning设置下的惊喜表现相比，GPT-3在Few-shot Learning设置下的性能足以震惊所有人。

强化学习之Q-Learning

标签：强化学习 reinforcement learning Q-learning

Q-learning是RL最基础的算法，于1989年由Watkins被提出来，与同样经典的SARSA算法非常类似。按木盏习惯，本文依旧不会大量堆公式，尽量以易理解的方式来表达Q-Learning。 1. 查表操作 “查表操作”这四个字...

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-2与Zero-shot Learning

标签：人工智能深度学习自然语言处理

最后，小维根据爸爸的提示，找到了画有斑马的卡片。同样用一个形象的例子解释：爸爸拿了五张分别画有柴犬、柯基、边牧、哈士奇和阿拉斯加的卡片，告诉小维，这些都属于犬类，然后给了小维三张卡片，分别画有橘猫、...

最好用的版本CNKI E-Learning 2.0.1-20120914

标签： CNKI E-Learning E-Learning2.0.1

最好用的版本CNKI E-Learning 2.0.1,中国知网阅读器E-Learning通过科学、高效地研读和管理文献，以文献为出发点，理清知识脉络，探索未知领域，管理学习过程，实现探究式学习、终生学习。

【强化学习】Q-Learning算法求解悬崖行走问题 + Python代码实战

标签： python 强化学习悬崖行走问题

下面仅对Q-Learning算法对简单介绍Q学习是一种异策略（off-policy）算法。目标策略（target policy）和行为策略（behavior policy）。目标策略就是我们需要去学习的策略，相当于后方指挥的军师，它不需要直接与环境...

睿智的目标检测35——Pytorch搭建YoloV4-Tiny目标检测平台

标签： YOLOV4-Tiny 机器学习深度学习

睿智的目标检测35——Pytorch 搭建YoloV4-Tiny目标检测平台学习前言什么是YOLOV4-Tiny代码下载YoloV4-Tiny结构解析1、主干特征提取网络Backbone2、特征金字塔3、YoloHead利用获得到的特征进行预测4、预测结果的解码5...

【强化学习】Q-Learning算法求解迷宫寻路问题 + Java代码实现

标签：强化学习人工智能迷宫寻路

之前在学习强化学习的时候，一直用的是Python，但奈何只会用java写后端，对Python的一些后端框架还不太熟悉，（以后要集成到网站上就惨了），于是就想用Java实现一下强化学习中的Q-Learning算法，来搜索求解人工智能...

Python_强化学习_Q-Learning算法_二维迷宫游戏

标签：机器学习强化学习 python

在该项目中，你将使用强化学习算法（本文使用的Q-Learning），实现一个自动走迷宫的机器人。机器人初始位置在地图左上角。在我们的迷宫中，有墙壁（黑色方块）、元宝（黄色圆块）及终点（绿色方块）。机器人要尽...

ChatGLM-6B的P-Tuning微调详细步骤及结果验证

标签：人工智能 chatglm-6b微调

ChatGLM-6B的P-Tuning微调详细步骤及结果验证

Deep Reinforcement Learning - 1. DDPG原理和算法

标签： RL deep-learning ddpg

Deep Reinforcement Learning - 1. DDPG原理和算法背景描述 DDPG的定义和应用场景 DDPG算法相关基本概念定义 DDPG实现框架和算法 DDPG对于DPG的关键改进下一篇以下用RL作为Reinforcement Learning 的简称。背景...

mastering machine learning with scikit-learn

标签： scikit-learn machine learning

mastering machine learning with scikit-learn

强化学习：Q-learning与DQN（Deep Q Network）

标签：强化学习 Q-learning DQN

Q-learning是一种很常用的强化学习方法，DQN则是Q-learning和神经网络的结合。 Q-learning 首先要设计状态空间s，动作空间a，以及reward。一次transition就是（s，a，w，s_）一次episode就是 DQN Q-...

【强化学习Q-Learning算法学习笔记】概念整理+实例+代码解释+ppt

标签：机器学习强化学习算法 Q-LEARNING

1.强化学习介绍 2.Q-Learning算法实例 3.一个Q-Learning算法的程序实现

K-means聚类算法原理及python实现

标签：机器学习 k-means

文章目录一.聚类算法二.K-means聚类算法三.K-means...新质心的计算Step4.是否停止K-means四.K-means算法代码实现1.其伪代码如下2.python实现五.K-means算法补充六.小结一.聚类算法     &nbs...

深度强化学习系列(5): Double Q-Learning原理详解

标签： Double Q-Learning Overestimation 过估计

论文地址： ...前言： Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在，而导致overestimation的主要原因来自于最大化值函...

【论文整理】小样本学习Few-shot learning论文整理收藏（最全，持续更新）

标签：小样本学习综述 few-shot 小样本

一、综述类 1.Generalizing from a Few Examples: A Survey on Few-Shot Learning 2.Generalizing from a few examples: A survey on few-shot learning, CSUR, 2020. 3.Rethinkingfew-shotimage ...4.Prototyp...

【多模态】6、BLIP-2 | 使用 Q-Former 连接冻结的图像和语言模型实现高效图文预训练

标签： AIGC 语言模型人工智能

本文主要介绍 BLIP-2

MAML: Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks (模型无关的元学习用于快速...

标签： Meta-learning Few-shot learning MAML

模型3.1 模型架构3.1.1 注意力机制内核3.1.2 完全上下文 embedding3.2 训练策略4. 其他5. 论文链接 1. 摘要文章提出了一种概念上简单、灵活、通用的框架用于 few-shot learning 问题。few-shot learning 问题需要...

【论文导读】- E-LSTM-D: A Deep Learning Framework for Dynamic Network Link Prediction（动态网络链接...

标签： lstm encoder-decoder 动态网络

预测网络中节点之间的潜在关系，即链路预测，长期以来一直是网络科学中的一个挑战。然而，大多数研究只关注静态网络的链路预测，而现实世界中的网络总是随着节点和链路的出现和消失而不断演化。...

Joint Learning 与 Multi-Task Learning浅析

标签：机器学习集成学习 Joint learning

Joint Learning和Multi-Task Learning都属于集成学习（Ensemble Learning）的范畴，但网上关于Joint Learning的相关资料较少，因此在这里对这两种学习方式进行简要介绍，并对其不同点进行区分。 Joint Learning ...

强化学习之Q-learning简介

标签：强化学习 q-learning

强化学习在alphago中大放异彩，本文将简要介绍强化学习的一种q-learning。先从最简单的q-table下手，然后针对state过多的问题引入q-network，最后通过两个例子加深对q-learning的理解。

ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT

标签： gpt-3 PPO算法强化学习

本篇ChatGPT笔记会全力做到，通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式) 一方面，对于想了解ChatGPT背后原理和如何发展而来的，逐一阐述从GPT...

e-Learning Class(极域电子教室客户端)的另类破解思路

标签： e-Learning Class(极域电子教室客户端)的破解极域电子教室客户端的破解思路 e-Learning Class的破解思路

声明一下：本文仅用作技术研究小小的娱乐一下 ...HKEY_LOCAL_MACHINE\SOFTWARE\TopDomain\e-learning Class Standard\1.00 （ps:这个方法不是我要的效果）今天再进机房想用Ollydbg动态调试一...

Q-Learning算法学习

标签：算法强化学习 q-learning

Q-Learning算法学习简介Q-Learning算法下，目标是达到目标状态(Goal State)并获取最高收益，一旦到达目标状态，最终收益保持不变。因此，目标状态又称之为吸收态。Q-Learning算法下的agent，不知道整体的环境，知道...

睿智的目标检测39——TF2搭建YoloV4-Tiny目标检测平台（tensorflow2）

标签： yolov4-tiny 计算机视觉人工智能

睿智的目标检测38——TF2搭建YoloV4-Tiny目标检测平台（tensorflow2）学习前言什么是YOLOV4-Tiny代码下载YoloV4-Tiny结构解析1、主干特征提取网络Backbone2、特征金字塔3、YoloHead利用获得到的特征进行预测4、预测...

A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)

标签： Q-learning state action

本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译，共分两部分，第一部分为中文翻译，第二部分为英文原文。翻译时为方便读者理解，有些地方采用了意译的方式，此外，原文中有几处笔误...

睿智的目标检测34——Keras搭建YoloV4-Tiny目标检测平台

标签： YoloV4-Tiny 目标检测深度学习

睿智的目标检测34——Keras 搭建YoloV4-Tiny目标检测平台学习前言什么是YOLOV4-Tiny代码下载YoloV4-Tiny结构解析1、主干特征提取网络Backbone2、特征金字塔3、YoloHead利用获得到的特征进行预测4、预测结果的解码5、...